Model Evaluation (Confusion Matrix, ROC-AUC Curve)

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Logistic Regression
226

মডেল ইভ্যালুয়েশন মেশিন লার্নিংয়ের একটি গুরুত্বপূর্ণ অংশ, যা মডেলের কার্যকারিতা বা পারফরম্যান্স মূল্যায়ন করতে ব্যবহৃত হয়। Confusion Matrix এবং ROC-AUC Curve হল দুটি জনপ্রিয় মেট্রিক্স যা ক্লাসিফিকেশন মডেলগুলির পারফরম্যান্স মূল্যায়ন করতে ব্যবহৃত হয়। এগুলি বিশেষভাবে বাইনারি ক্লাসিফিকেশন মডেলগুলির জন্য খুবই কার্যকরী। আসুন, এগুলির বিশদ আলোচনা করি।


১. Confusion Matrix (কনফিউশন ম্যাট্রিক্স)

Confusion Matrix হলো একটি টেবিল যা ক্লাসিফিকেশন মডেলের পারফরম্যান্স পরিমাপ করার জন্য ব্যবহৃত হয়। এটি মূলত সঠিক এবং ভুল পূর্বাভাসের সংখ্যা (ট্রু পজিটিভ, ট্রু নেগেটিভ, ফালস পজিটিভ, ফালস নেগেটিভ) প্রদর্শন করে, যা মডেলটির কার্যকারিতা বোঝাতে সাহায্য করে।

Confusion Matrix এর উপাদানসমূহ:

  • True Positive (TP): মডেল সঠিকভাবে পজিটিভ ক্লাস পূর্বাভাস করেছে।
  • True Negative (TN): মডেল সঠিকভাবে নেগেটিভ ক্লাস পূর্বাভাস করেছে।
  • False Positive (FP): মডেল ভুলভাবে পজিটিভ ক্লাস পূর্বাভাস করেছে (Type I Error)।
  • False Negative (FN): মডেল ভুলভাবে নেগেটিভ ক্লাস পূর্বাভাস করেছে (Type II Error)।

Confusion Matrix Example:

ধরা যাক, একটি মডেল ইমেইল স্প্যাম ডিটেক্ট করার জন্য প্রশিক্ষিত এবং এটি দুটি শ্রেণীতে (স্প্যাম এবং নন-স্প্যাম) ভাগ করেছে।

Predicted SpamPredicted Not Spam
Actual SpamTP = 50FN = 10
Actual Not SpamFP = 5TN = 100

এখানে:

  • TP (True Positive): 50 স্প্যাম ইমেইল সঠিকভাবে স্প্যাম হিসেবে চিহ্নিত হয়েছে।
  • TN (True Negative): 100 নন-স্প্যাম ইমেইল সঠিকভাবে নন-স্প্যাম হিসেবে চিহ্নিত হয়েছে।
  • FP (False Positive): 5 নন-স্প্যাম ইমেইল ভুলভাবে স্প্যাম হিসেবে চিহ্নিত হয়েছে।
  • FN (False Negative): 10 স্প্যাম ইমেইল ভুলভাবে নন-স্প্যাম হিসেবে চিহ্নিত হয়েছে।

Confusion Matrix ব্যবহার:

Confusion Matrix থেকে আমরা অনেক গুরুত্বপূর্ণ মেট্রিক্স বের করতে পারি, যেমন:

  • Accuracy = TP+TNTP+TN+FP+FN\frac{TP + TN}{TP + TN + FP + FN}
  • Precision = TPTP+FP\frac{TP}{TP + FP}
  • Recall (Sensitivity) = TPTP+FN\frac{TP}{TP + FN}
  • F1-Score = 2×Precision×RecallPrecision+Recall2 \times \frac{Precision \times Recall}{Precision + Recall}

উদাহরণ কোড:

from sklearn.metrics import confusion_matrix
y_true = [1, 0, 1, 1, 0, 0, 1]
y_pred = [1, 0, 1, 0, 0, 1, 1]
cm = confusion_matrix(y_true, y_pred)
print(cm)

সারাংশ:

Confusion Matrix হল একটি শক্তিশালী টুল যা মডেলের ভুল এবং সঠিক পূর্বাভাসগুলি বিশ্লেষণ করতে সাহায্য করে এবং মডেল পারফরম্যান্সের অন্যান্য মেট্রিক্স বের করতে সহায়ক।


২. ROC Curve এবং AUC (Area Under the Curve)

ROC Curve (Receiver Operating Characteristic Curve) একটি গ্রাফিক্যাল রিপ্রেজেন্টেশন যা মডেলের পারফরম্যান্স নির্ধারণ করে, বিশেষভাবে বাইনারি ক্লাসিফিকেশন মডেলগুলির জন্য। এটি মডেলের True Positive Rate (TPR) এবং False Positive Rate (FPR) এর মধ্যে সম্পর্ক দেখায়।

ROC Curve এর উপাদান:

  • True Positive Rate (TPR) বা Recall: TPTP+FN\frac{TP}{TP + FN}
  • False Positive Rate (FPR): FPFP+TN\frac{FP}{FP + TN}

ROC Curve গ্রাফের মধ্যে, TPR Y-অক্ষ (Vertical) এবং FPR X-অক্ষ (Horizontal) এ প্লট করা হয়।

AUC (Area Under the Curve):

AUC বা Area Under the Curve হল ROC Curve-এর নিচে যে এলাকা আছে, তার আয়তন। এটি মডেলের পারফরম্যান্সের এক ধরনের সংক্ষিপ্ত পরিমাপ। AUC এর মান 0 থেকে 1 এর মধ্যে থাকে:

  • AUC = 1: মডেলটি পূর্ণ পারফরম্যান্স দেখাচ্ছে, সঠিকভাবে সবকিছু পূর্বাভাস করছে।
  • AUC = 0.5: মডেলটি কেবল অনুমান করছে, কোনো পারফরম্যান্স নেই।
  • AUC < 0.5: মডেলটি খারাপ কাজ করছে, এমনকি এলোমেলো পূর্বাভাসের চেয়েও খারাপ।

ROC Curve এবং AUC Example:

from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

y_true = [0, 0, 1, 1]  # আসল টার্গেট
y_scores = [0.1, 0.4, 0.35, 0.8]  # মডেলের স্কোর

fpr, tpr, thresholds = roc_curve(y_true, y_scores)
roc_auc = auc(fpr, tpr)

# ROC Curve Plot
plt.plot(fpr, tpr, color='blue', lw=2, label=f'AUC = {roc_auc:.2f}')
plt.plot([0, 1], [0, 1], color='gray', linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.show()

সারাংশ:

  • ROC Curve: মডেলের পারফরম্যান্স দেখানোর জন্য একটি গ্রাফিক্যাল রিপ্রেজেন্টেশন যা True Positive Rate (TPR) এবং False Positive Rate (FPR) এর সম্পর্ক প্রদর্শন করে।
  • AUC: এটি ROC Curve-এর নিচের এলাকার পরিমাপ, যা মডেলের পারফরম্যান্সের একটি সংক্ষিপ্ত পরিমাপ প্রদান করে।

Confusion Matrix এবং ROC-AUC Curve এর মধ্যে পার্থক্য

বৈশিষ্ট্যConfusion MatrixROC-AUC Curve
ব্যবহারসঠিক এবং ভুল পূর্বাভাসের সংখ্যা পরিমাপ করতেমডেলের পারফরম্যান্স দেখানোর জন্য গ্রাফিক্যাল রিপ্রেজেন্টেশন
মেট্রিক্সAccuracy, Precision, Recall, F1-ScoreTrue Positive Rate (TPR), False Positive Rate (FPR)
পারফরম্যান্সকনফিউশন ম্যাট্রিক্সের সাহায্যে মডেল পারফরম্যান্স বিশ্লেষণAUC (Area Under Curve) দ্বারা মডেল পারফরম্যান্স পরিমাপ
ব্যবহারযোগ্যতাছোট ডেটাসেট এবং বাইনারি/মাল্টিক্লাস ক্লাসিফিকেশনবিশেষভাবে বাইনারি ক্লাসিফিকেশন মডেলগুলির জন্য

সারাংশ

  • Confusion Matrix মডেলের সঠিক এবং ভুল পূর্বাভাস বিশ্লেষণ করার জন্য ব্যবহৃত হয় এবং বিভিন্ন মেট্রিক্স (যেমন Precision, Recall, F1-Score) বের করতে সাহায্য করে।
  • ROC Curve এবং AUC মডেলের পারফরম্যান্সের একটি গ্রাফিক্যাল রিপ্রেজেন্টেশন সরবরাহ করে এবং AUC মানের মাধ্যমে মডেলটি কতটা কার্যকর তা পরিমাপ করা হয়।

এই দুটি মেট্রিক্স মডেল ইভ্যালুয়েশন এবং মডেল নির্বাচন প্রক্রিয়ায় গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...